高维物理学正在成为现代动力学的规范。不仅是弦理论在十维空间(加上一个时间维度)运行,而且几乎每一种复杂的动力系统都在高维状态空间中被描述和分析。例如,群体动力学(population dynamics)可能描述成百上千个不同的物种,每个物种的时变种群在高维空间中定义一个单独的轴;耦合机械系统同样可能有成百上千(或更多)的自由度,在高维相空间中被描述。 由于这些原因,随着今天的物理学越来越多地涉及到高维动力学的挑战和问题,我们需要工具帮助对高维系统极不直观的行为有直观感觉。 快速发展的机器学习领域经常处理需要最小化的高维景观(损失函数或目标函数),高维度通常被称为负面的“维度灾难”(Curse of Dimensionality)。 维度可能被看作是一种灾难,原因有几个。首先,几乎不可能在高于 d=4 的维度上实现数据可视化(第四维度有时可以用颜色或时间序列进行可视化)。其次,过多的自由度会产生太多变量来拟合或建模,导致典型的过拟合问题。简单地说,高维空间大得离谱。第三,我们对面积和体积之间关系的直觉受到三维经验的影响,导致对高维空间几何对象的理解产生严重偏颇。发生在三维空间的物理过程被过度泛化,导致人们产生先入为主的、在高维空间中并不成立的概念。 以随机游走为例。它通常从一维随机游走(抛硬币)开始讲授,然后扩展到二维,再到三维......大多数教科书都到此为止。但在复杂系统中,高维随机游走是常规而非例外。在这方面特别重要的一个例子是分子演化(molecular evolution)问题。基因组上的每个位点都代表一个独立的自由度,分子演化可以被描述为在这个空间中的随机游走,但是所有可能基因突变的空间是巨大的。面对这样天文数字般巨大的组合,很难想象随机突变如何创造出像 ATP 合成酶这样复杂的东西,而 ATP 合成酶是所有高等生物能量学的基础。幸运的是,这个难题的答案在于物理学中的高维随机游走。
当高维空间是基因组上可能的突变空间,当景观是适应性景观,为一个突变分配相对于其他突变的生存优势,那么随机游走描述物种的跨代演化。 高维空间普遍存在的山脊,或更普遍的水平集合,对演化过程有重大影响,因为一个物种可以沿着水平集合游走,获得许多可能的突变,这些突变对物种的生存能力只有中性影响。同时,基因构成在这个“中性网络”中不断漂移,使该物种的基因组能够进入空间的遥远部分。然后,在某些时候,自然选择可能会使该物种登上附近(罕见)的高峰,而该物种就达到了新的平衡。 早期对适应性景观的一个(错误)批评,是物种要从一个适应性高峰移动到另一个高峰,就必须向下走,穿过宽阔的适应性低谷,才能到达另一个高峰。但这是三维空间思维的遗留。在高维空间,中性网络无处不在,突变可以离开一个适应性高峰到达一个中性网络(这可以通过随机游走进行采样),直到状态接近某个遥远的高峰。不再有必要从适应性高峰和低谷的角度来思考——只是随机游走。然后,一旦我们的三维偏见消除,极其复杂结构(如ATP合成酶)的演化,可以被理解为沿着近乎中性的适应性网络的随机游走。 同样的论点也适用于机器学习,特别是深度学习中的许多情况。在训练深度神经网络时,可能有成千上万的神经权重需要通过最小化损失函数(也被称为目标函数)来训练。损失函数相当于势能,在数千个维度上最小化损失函数与最大化一个演化物种的适应性是同一个问题。 乍一看,人们可能认为深度学习注定要失败。从微积分学习对最早阶段开始,我们就知道,只要有足够多的可调参数,就可以拟合任何东西,但拟合是没有意义的,因为它无法预测。深度学习似乎是个最糟糕的例子。当优化空间的维度比建模系统的自由度大几个数量级时,拟合数千个可调参数怎么可能有用? 答案来自于高维几何学。高维度上中性网络的普遍存在,留出了很多机会来逃开局部最小值。事实上,局部最小值在高维度上很罕见,当它们出现时,附近就有一个中性网络,可以逃到上面去(如果学习过程的有效温度设置得足够高)。因此,尽管可调参数的数量大得离谱,但作为与梯度下降相结合的部分策略,通过增加围绕目标景观的随机游走,可以找到有意义的、可预测的一般解决方案。 鉴于深度学习与人类思维的肤浅类比,超高维度的随机游走几何学可能部分解释了我们自身潜在的智能和意识。 参考文献S. Gravilet, Fitness Landscapes and the Origins of Species. Princeton University Press, 2004.M. Kimura, The Neutral Theory of Molecular Evolution. Cambridge University Press, 1968.